智能论文笔记

Artificial Intelligence Security Competition (AISC)

Yinpeng Dong , Peng Chen , Senyou Deng , Lianji L , Yi Sun , Hanyu Zhao , Jiaxing Li , Yunteng Tan , Xinyu Liu , Yangyi Dong

分类：人工智能 | 计算机视觉 | 机器学习

2022-12-07

The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.

translated by 谷歌翻译

RGB-D based Stair Detection using Deep Learning for Autonomous Stair Climbing

Chen Wang , Zhongcai Pei , Shuang Qiu , Zhiyong Tang

分类：计算机视觉 | 机器人

2022-12-02

Stairs are common building structures in urban environment, and stair detection is an important part of environment perception for autonomous mobile robots. Most existing algorithms have difficulty combining the visual information from binocular sensors effectively and ensuring reliable detection at night and in the case of extremely fuzzy visual clues. To solve these problems, we propose a neural network architecture with inputs of both RGB map and depth map. Specifically, we design the selective module which can make the network learn the complementary relationship between RGB map and depth map and effectively combine the information from RGB map and depth map in different scenes. In addition, we also design a line clustering algorithm for the post-processing of detection results, which can make full use of the detection results to obtain the geometric parameters of stairs. Experiments on our dataset show that our method can achieve better accuracy and recall compared with the previous state-of-the-art deep learning method, which are 5.64% and 7.97%, respectively. Our method also has extremely fast detection speed, and a lightweight version can achieve 300 + frames per second with the same resolution, which can meet the needs of most real-time detection scenes.

translated by 谷歌翻译

PACT: Perception-Action Causal Transformer for Autoregressive Robotics Pre-Training

Rogerio Bonatti , Sai Vemprala , Shuang Ma , Felipe Frujeri , Shuhang Chen , Ashish Kapoor

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2022-09-22

长期以来，Robotics一直是一个遍布复杂系统体系结构的领域，无论传统或基于学习的模块和联系都需要大量的人类专业知识和先验知识。受大型预训练语言模型的启发，这项工作引入了预先培训的通用表示范式，该范式可以作为给定机器人多个任务的起点。我们提出了感知性因果变压器（PACT），这是一种基于生成变压器的架构，旨在以自我监督的方式直接从机器人数据构建表示形式。通过对状态和行动的自动回归预测，我们的模型隐含地编码了特定机器人的动态和行为。我们的实验评估重点是移动药物的域，我们表明该机器人特定的表示可以作为单个起点，以实现不同的任务，例如安全导航，定位和映射。我们评估了两个形式：使用激光雷达传感器作为感知输入（MUSHR）的轮式机器人，以及使用第一人称RGB图像（栖息地）的模拟药物。我们表明，与训练单个模型的同时训练单个模型相比，对所有任务的单个模型进行训练，并且与独立培训单独的大型模型相当的性能，对每个任务的单个模型进行了可比的训练，则在较大的审计模型上进行了固定小型任务特异性网络，从而使性能明显提高。通过跨任务共享共同的优质表示，我们可以降低整体模型容量并加快此类系统的实时部署。

translated by 谷歌翻译

A Feasibility Study on Image Inpainting for Non-cleft Lip Generation from Patients with Cleft Lip

Shuang Chen , Amir Atapour-Abarghouei , Jane Kerby , Edmond S. L. Ho , David C. G. Sainsbury , Sophie Butterworth , Hubert P. H. Shum

分类：计算机视觉

2022-08-01

唇裂是一种先天性异常，需要专家手术修复。外科医生必须具有丰富的经验和理论知识才能进行手术，并且已经提出了人工智能（AI）方法来指导外科医生改善手术结局。如果可以使用AI来预测修复的唇唇的外观，那么外科医生可以将其用作辅助手术技术来调整其手术技术并改善结果。为了在保护患者隐私时探索这个想法的可行性，我们提出了一种基于深度学习的图像镶嵌方法，该方法能够覆盖唇裂，并产生唇彩，而无需裂缝。我们的实验是在两个现实世界中的裂口数据集上进行的，并由专家cleft唇外科医生评估，以证明该方法的可行性。

translated by 谷歌翻译

Few-Shot Object Detection by Knowledge Distillation Using Bag-of-Visual-Words Representations

Wenjie Pei , Shuang Wu , Dianwen Mei , Fanglin Chen , Jiandong Tian , Guangming Lu

分类：计算机视觉

2022-07-25

虽然基于微调对象检测的基于微调的方法已经取得了显着的进步，但尚未得到很好的解决的关键挑战是基本类别的潜在特定于类别的过度拟合，并且针对新颖的类别的样本特异性过度拟合。在这项工作中，我们设计了一个新颖的知识蒸馏框架，以指导对象探测器的学习，从而抑制基础类别的前训练阶段的过度拟合，并在小型课程上进行微调阶段。要具体而言，我们首先提出了一种新颖的位置感知的视觉袋模型，用于从有限尺寸的图像集中学习代表性的视觉袋（BOVW），该模型用于基于相似性来编码常规图像在学习的视觉单词和图像之间。然后，我们基于以下事实执行知识蒸馏，即图像应在两个不同的特征空间中具有一致的BOVW表示。为此，我们独立于对象检测的特征空间预先学习特征空间，并在此空间中使用BOVW编码图像。可以将图像的BOVW表示形式视为指导对象探测器的学习：对象检测器的提取特征对同一图像的提取特征有望通过蒸馏知识得出一致的BOVW表示。广泛的实验验证了我们方法的有效性，并证明了优于其他最先进方法的优势。

translated by 谷歌翻译

Multi-Faceted Distillation of Base-Novel Commonality for Few-shot Object Detection

Shuang Wu , Wenjie Pei , Dianwen Mei , Fanglin Chen , Jiandong Tian , Guangming Lu

分类：计算机视觉

2022-07-22

几次射击对象检测的大多数现有方法都遵循微调范式，该范式可能假设可以通过众多样本的基本类别学习并将其隐式转移到具有限量样本的新颖类中，从而将类别的概括性知识隐含地转移到有限的类别中。舞台培训策略。但是，这不一定是正确的，因为对象检测器几乎无法在没有明确的建模的情况下自动区分类别不合时宜的知识和特定于类的知识。在这项工作中，我们建议在基础和新颖类之间学习三种类型的类不足的共同点：与识别相关的语义共同点，与定位相关的语义共同点和分布共同点。我们基于内存库设计了一个统一的蒸馏框架，该框架能够共同有效地进行所有三种类型的共同点。广泛的实验表明，我们的方法可以很容易地集成到大多数现有的基于微调的方法中，并始终如一地通过大幅度提高性能。

translated by 谷歌翻译

Test-time Adaptation with Calibration of Medical Image Classification Nets for Label Distribution Shift

Wenao Ma , Cheng Chen , Shuang Zheng , Jing Qin , Huimao Zhang , Qi Dou

分类：计算机视觉

2022-07-02

课堂分配在学习深分类器中起着重要的作用。当测试集中每个类的比例与训练集不同时，分类网的性能通常会降低。由于疾病的患病率在位置和时间上有所不同，因此这种标签分布转移问题在医学诊断中很常见。在本文中，我们提出了第一种解决医疗图像分类标签转移的方法，该方法有效地适应了从单个培训标签分布中学到的模型，以使其成为任意未知的测试标签分布。我们的方法创新了分配校准以学习多个代表性分类器，这些分类器能够处理不同的一级分布。当给出测试图像时，不同的分类器通过一致性驱动的测试时间适应动态聚合，以处理未知的测试标签分布。我们在两个重要的医学图像分类任务上验证方法，包括肝纤维化分期和COVID-19的严重性预测。我们的实验清楚地表明了标签移位下的模型性能下降。通过我们的方法，模型性能可显着改善所有测试数据集，这些数据集具有不同的标签变化，用于两项医学图像诊断任务。

translated by 谷歌翻译

Fine-grained Correlation Loss for Regression

Chaoyu Chen , Xin Yang , Ruobing Huang , Xindi Hu , Yankai Huang , Xiduo Lu , Xinrui Zhou , Mingyuan Luo , Yinyu Ye , Xue Shuang

分类：计算机视觉

2022-07-01

回归学习是经典的，是医学图像分析的基础。它为许多关键应用程序提供了连续的映射，例如属性估计，对象检测，分割和非刚性注册。但是，先前的研究主要以案例标准（如均方误差）为优化目标。他们忽略了非常重要的人口相关标准，这正是许多任务中的最终评估指标。在这项工作中，我们建议通过有关直接优化细粒相关损失的新型研究来重新审视经典回归任务。我们主要探索两个互补相关索引作为可学习的损失：Pearson线性相关（PLC）和Spearman等级相关性（SRC）。本文的贡献是两个折叠。首先，对于全球层面的PLC，我们提出了一项策略，以使其对异常值进行强大的态度并规范关键分布因素。这些努力显着稳定学习并扩大了PLC的功效。其次，对于本地级别的SRC，我们提出了一种粗到精细的方案，以减轻样品之间确切排名顺序的学习。具体而言，我们将样本排名的学习转换为样本之间相似关系的学习。我们在两个典型的超声图像回归任务上广泛验证了我们的方法，包括图像质量评估和生物措施测量。实验证明，通过直接优化相关性的细粒度指导，回归性能得到显着提高。我们提出的相关性损失是一般的，可以扩展到更重要的应用程序。

translated by 谷歌翻译

DP$^2$-NILM: A Distributed and Privacy-preserving Framework for Non-intrusive Load Monitoring

Shuang Dai , Fanlin Meng , Qian Wang , Xizhong Chen

分类：机器学习 | 人工智能

2022-06-30

通常利用机器学习方法并有效地将智能电表读数从家庭级别分解为设备级消耗，可以帮助分析用户的电力消耗行为并启用实用智能能源和智能网格申请。最近的研究提出了许多基于联邦深度学习（FL）的新型NILM框架。但是，缺乏综合研究，探讨了不同基于FL的NILM应用程序方案中的实用性优化方案和隐私保护方案。在本文中，我们首次尝试通过开发分布式和隐私的尼尔姆（DP2-NILM）框架来进行基于FL的NILM，重点关注实用程序优化和隐私保护，并在实用的NILM场景上进行比较实验基于现实世界的智能电表数据集。具体而言，在实用程序优化方案（即FedAvg和FedProx）中检查了两种替代联合学习策略。此外，DP2-NILM提供了不同级别的隐私保证，即联合学习的当地差异隐私学习和联合的全球差异隐私学习。在三个现实世界数据集上进行了广泛的比较实验，以评估所提出的框架。

translated by 谷歌翻译

Improving Transferability for Domain Adaptive Detection Transformers

Kaixiong Gong , Shuang Li , Shugang Li , Rui Zhang , Chi Harold Liu , Qiang Chen

分类：计算机视觉

2022-04-29

DETR风格的检测器在内域场景中脱颖而出，但是它们在域移位设置中的属性却没有探索。本文旨在根据两个发现，在域移位设置上使用DETR式检测器建立一个简单但有效的基线。首先，减轻主链的域移动，解码器输出功能在获得有利的结果方面表现出色。对于另一种高级域对准方法，这两个部分都进一步增强了性能。因此，我们提出了对象感知的对准（OAA）模块和最佳基于运输的比对（OTA）模块，以在骨干和检测器的输出上实现全面的域对齐。 OAA模块将伪标签标识的前景区域对齐骨干输出中的伪标签，从而导致基于域的不变特征。 OTA模块利用切成薄片的Wasserstein距离来最大化位置信息的保留，同时最大程度地减少解码器输出中的域间隙。我们将调查结果和对齐模块实施到我们的适应方法中，并基准在域移位设置上基于DETR风格的检测器。在各种领域自适应场景上进行的实验验证了我们方法的有效性。

translated by 谷歌翻译